JSAI2024 2日目
聴講した発表をいくつかピックアップ
適宜加筆修正します
https://gyazo.com/7ed3a66b992a0dbf9736036a72aa4b33
今日は快晴
説明可能なAI
現場で使ってもらうための課題
招待講演: 進化する大規模言語モデル(国立情報学研究所 相澤先生)
1年前: ChatGPTの登場とその衝撃
この直後からの日本の動きはいい感じだった
テーマ: 自然言語処理の研究者はいま何をしているのか?
1 LLMの進化の系譜
Hugging Faceでの公開モデル数が指数的に増加
進化系統図
LLMの進化の歴史を紐解くために重要な調査
文脈と意味
文脈の近さによって意味の近さを測る
意味を数値で表し計算可能になる
文脈ベクトルの空間上の距離
文脈ベクトルによる意味空間
高次元でスパースな意味空間。困る。→ 様々な圧縮手法。分散表現もそのひとつ。
Embedding: One hot vectorをLow dimension representationに表現すること https://gyazo.com/83e417be113c3a892d8cb8b3c23f26e1 https://gyazo.com/819a1d6a71fcbb43eb1c198f4dc6846b
これまでで一番理解が捗った。感謝 daiiz.icon
埋め込み表現の「学習」
空欄に入る単語を予測(穴埋め問題)
Encorderに相当
次に来る単語を予測
Decorderに相当
概念間の関係(推論)が埋め込み空間上の計算で表したこと
未知語の問題、多義語の問題
未知語: Out-of-vocabulary (OOV) 文の確率は単語の生起確率の掛け算で表現されるので未知語は死活問題
<UNK>トークンで代替する
サブワードへの分解(Byte Pair Encoding, 2016) 辞書にない単語を既知のものに分解していく
語義の曖昧性
"mouse": 動物なのかデバイスなのか
LSTMで語の順番を捉える。RNNで文脈に応じた意味付けができるようになった。 attention head
文法と意味成約を学習できる
LLMの進化 大規模化(2023)
事前学習パラダイムと自然言語処理
事前学習済み言語モデル
Pre-train, Fine-tune
Pre-train, Prompt, Predict
エンジニアリングチャレンジ: プロンプトで問題の与え方を工夫 これが大きなパラダイムシフト
スケーリング則と創発性
パラメータ数が大きいモデルほど性能が良い
モデルの結合
2 LLM構築の現場レポート
OSSかつ日本語に強いLLMの構築と研究開発の推進
オープンプラットフォーム構築
NII LLMC
大規模言語モデル研究開発センター
構築の工程
文書から文字列を抽出したもの
大きさの目安: 20トークン=1パラメータ
目的に合わせてコーパスを混合
混合比率も経験則
「質」が悪いと性能が落ちる
重複した文章が性能に悪影響を及ぼすこともある
良質かつ大量のテキストデータが必要だが枯渇したのではないかという問題
ウェブ空間でさえ足りなくなってきているという指摘も存在する
トークナイザー
サブワードへの分解みたいなもの
辞書は大きすぎないほうがいいが、トークン数は少ないほうがいい(再び経験則) トークンサイズはコストと利便性直結する
トークン単位での課金
コンテキストウィンドウ長の成約
言語間の格差
例: 漢字がトークンに含まれているか?
スペースの扱いによる違い
例: プログラミングコードのモデルでは?
辞書から消してはいけない「必須語彙」を特定する作業などしている
逆にトークナイザーに都合の良い言語作れないかな daiiz.icon
モデル構築
計算機に投げればできるでしょ、という世界ではない
チューニング・評価、推論
タスクの例: 固有表現抽出、含意関係認識
タスク自体も多様化してる
評価データセットの大規模化につながる
BiGBIO
評価データに訓練データの正解が含まれていてはいけない
しかし、ウェブ上で素材が公開されていてモデルが答えを既に知っている可能性があるが検出困難
推論タスクのブラックボックス化
答えを評価する前に「問題を理解しているか」を評価する難しさ
LLMの評価にLLMが必要
Learn from model: データからのみならず、モデルからも学習してる時代
データとモデルのエコシステム
透明性
基盤モデルのエコシステムのグラフ
事前学習コーパスを検索分析(開発中)
根拠とお模式文書がどのデータセットに含まれるか、どのステップで学習されたかわかる
https://gyazo.com/e52f54e08a8a4345f521a55ee0bd5734
3 論点提起
delve問題詳しく知らなかった。不勉強 daiiz.icon
モデル自体が研究対象に
https://gyazo.com/0dbe6fed768cda995177579d40d9dc8e
質疑応答
コーパス構築のリソース不足に関して
オープンなリソースはかなり枯渇している印象を持っている。一方でクローズドなものやモダリティを増やした領域にはまだ豊富にあると思っている。
倫理審査が機能すると考えるか
言語の正しさ問題
伝統的な日本語のコーパスに期待している面がある
どこかで言語のオブザーバーがあるといいとは思っているが
Transformerが究極の解であるとは思っていない
スケール則に基づくモデルの巨大化はどこまでいくのか
ある程度の賢さは期待されている。これを満たしたうえで、コストを下げる方向に向かうとは思う。
コストの最適配分
久しぶりに大学の講義を受けている感じを思い出した。難しい!daiiz.icon
スポンサー展示場の様子
https://gyazo.com/85719fb4563ceebb8dac6dc81aed79de
ブースの新衣装の法被
プライベートで書いているLLM利活用の技術同人誌を置いておく https://gyazo.com/41a4d776b41ac2332df13f06b55728ca
激動の時代における各サービスの試行錯誤の記録
気になった瞬間に日頃からGyazoっておいたおかげであとから振り返って書けた一冊 というストーリーをブースでお伝えできてよかった daiiz.icon
学会ご飯
建物内を彷徨っていたらレストラン街に着いた
https://gyazo.com/12f0015db7ca637e1784a950b79d32b5